"""
使用requests爬取百度浙江工贸贴吧第一至第三页数据，保存在文件中
https://tieba.baidu.com/f?kw=浙江工贸&pn=0
https://tieba.baidu.com/f?kw=浙江工贸&pn=50
https://tieba.baidu.com/f?kw=浙江工贸&pn=100

爬取网页数据:
1、要不要登录才能访问
    需要登录才能访问的话，要考虑cookie或session来实现
2、Get/post请求 （浏览器：F12——NerWork）
    get请求：，需要知道URL，请求头（User
"""

import requests


def load_page(url, file_name):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"
    }
    html = requests.get(url, headers=headers)
    print(f'正在保存{file_name}')
    # 将爬取的内容放入html,写入文件
    with open(file_name, 'w', encoding='utf-8')as f:
        f.write(html.content.decode())


kw = input('请输入需要爬取的贴吧名:')
# 输入的内容都会被当做字符串，需要类型转换
begin_page = int(input('请输入起始页:'))
end_page = int(input('请输入结束页:'))
base_url = 'https://tieba.baidu.com/f?kw=' + kw

# 爬取url的内容保存在file_name文件中


for page in range(begin_page, end_page + 1):
    pn = (page - 1) * 50
    url = base_url + "&pn" + str(pn)
    # print(url)
    # 拼接文件名
    file_name = '第' + str(page) + '页.html'

    # 假设有
    load_page(url, file_name)
